02. 什么是机器学习工作流?




在这里我们使用一个 狗狗分类这个项目 来模拟讲解这个流程。

我们分三个部分来看这个部分,

探索及处理数据

  • 获取数据:在项目中,数据是我们已经准备好了,包括标注。
  • 清洗和探索数据:狗狗分类项目中,我们是使用 CNN 来进行特征的筛选,但是如何设置CNN的超参数,我们需要经过一定的清洗(清除错误的标签和异常值)、可视化和探索;
  • 准备及变形:为了让图像能够输入神经网络处理,我们可能需要裁剪、重采样、甚至图像增强(就是翻转或者旋转),并进行标准化、拆分数据集变成训练集、测试集和验证集;

建模

  • 训练模型:设置不同的初始参数及动量,进行模型参数的收敛及训练;
  • 验证及评估模型:通过验证数据来进行交叉验证,获得具有鲁棒性的参数,并使用测试数据进行模型评估;

部署

  • 生产部署模型:部署模型,使其可以通过网络访问;
  • 更新模型:通过新的数据,训练并更新模型参数;